구름톤

세미프로젝트1_01_다크웹 유출 정보 알림 및 OSINT 수집 시스템 개발

작성자 : Heehyeon Yoo|2026-01-18
# 구름톤# 세미프로젝트# OSINT# DarkWeb# AI

첫 세미프로젝트

구름톤 정보보호과정 16회차에 참여한 지 어느덧 50여 일이 지났다.
이론 기간이 끝나고, 드디어 첫 번째 세미프로젝트가 시작되었다.

첫 주제는 다크웹 유출 정보 알림 및 OSINT 수집 시스템 개발이다.

아직 팀에서 구체적으로 무엇을 만들자는 결론은 나지 않았지만
다음 팀 킥오프 미팅 전까지, 내가 알아본 내용과 공부한 것들, 그리고 앞으로의 계획을 정리해두려 한다.

AI 시대 다크웹 진입장벽 붕괴

과거의 다크웹은 어느 정도 기술적 진입장벽이 있었다.
Tor 브라우저를 설치하고, .onion 주소를 찾아 헤매고,
피싱 메시지나 그럴듯한 사기 게시물을 작성하려면 나름의 노력이 필요했다.

생성형 AI가 등장하면서 이 진입 장벽이 너무나 낮아졌다.

악성 LLM의 등장

일반 ChatGPT에는 윤리적 가드레일이 있지만, 다크웹에는 검열 없는 악성 LLM들이 이미 돌아다니고 있다.

  • WormGPT : 피싱 이메일 대량 생성에 특화
  • FraudGPT : 사기 스크립트, 악성코드 생성 지원
  • PaaS(Phishing-as-a-Service) : AI와 결합된 자동화 피싱 서비스

이제 저숙련 사용자도 AI에게 "그럴듯한 피싱 메시지 써줘"라고 요청하면, 수준 높은 사회공학적 공격 문구를 순식간에 얻을 수 있다는 것이다.
필요에 따라 API를 연결하면 수만 개의 메시지를 생성하는 것도 어렵지 않다.

공격과 방어의 비대칭성

입장상황
공격자AI로 수만 번 시도하고, 단 한 번만 성공하면 목표 달성
방어자모든 공격을 막아야 하고, 한 번이라도 뚫리면 피해

비용 면에서도 비대칭적이다.
공격자는 API 호출 몇 달러로 대량의 공격 시도가 가능하지만,
방어자는 분석가의 인건비를 비롯해 많은 시간을 투입해야 한다.

노이즈의 폭발이 문제의 핵심

다크웹에는 원래부터 노이즈가 많았다.
실제 위협은 전체의 1%도 안 된다고 한다.
대부분은 사기, 재탕된 데이터, 봇이 생성한 광고다.

그런데 AI의 도입으로 이 노이즈는 더 많아지고, 더 다양해졌다.

저품질 템플릿형 캠페인이 폭증했고,
그럴듯해 보이지만 실체가 없는 게시물들이 넘쳐나고 있다.
분석가 입장에서는 수천 개의 게시물을 수동으로 읽어야 하고,
진짜 위협과 노이즈를 구분하는 데 시간을 소모해야 한다.

이 상황에서 기존 방식대로 모든 것을 크롤링하고, 모든 알림을 받는다면?
실무자로서 엄청난 양의 노이즈를 필터링해야 하는 피로감이 클 것이다.
물론 고도화된 필터링 시스템이 있겠고, 이미 사용 중인 것도 있겠지만

이같은 노이즈를 줄일 수 있는 프로젝트라면 어느 정도 효율성이 있을 것 같다.

LLM 생성 콘텐츠 필터링

따라서 크롤링 단계부터 LLM 생성 콘텐츠에 대한 노이즈를 줄여주는 OSINT 시스템을 개발해보는 것도 좋을 것 같다.

기존 시스템들은 일단 수집하고, 이후에 분류하고 필터링한다.
하지만 AI 생성 콘텐츠가 폭증한 지금,
수집 단계에서부터 "이건 AI가 대량 생산한 저품질 콘텐츠일 가능성이 높다"를 판별해서
우선순위를 조정하면 어떨까 하는 생각이다.

AI 생성 텍스트 탐지 원리

AI가 생성한 텍스트는 인간이 작성한 것과 통계적으로 다른 특징을 보인다.

  • 낮은 당혹성(low perplexity) : AI 생성 텍스트는 예측 가능성이 높아 낮은 perplexity 값을 보임
  • 낮은 돌발성(low burstiness) : 인간은 문장 길이와 표현이 다양하지만, AI는 균일한 패턴 유지
  • 템플릿 잔재 : As an AI... 같은 프롬프트 누수 패턴

이런 특징들을 종합해서 AI-Score를 산출하고,
여기에 OPSEC 실수(동일 연락처/지갑 재사용, Surface 링크 누수 등)를 결합하면
실제로 위험한 캠페인과 AI가 찍어낸 노이즈를 구분할 수 있을 것이다.

핵심 가치는?

  1. 분석가 시간 절약 : 1,000개 글을 읽는 대신, AI가 점수화한 고위험 50개만 확인
  2. 연결 고리 발견 : 동일 Bitcoin 주소, PGP 키 등으로 분산된 게시물을 자동 클러스터링
  3. 즉각 대응 : 고위험 탐지 시 Discord/Email 실시간 알림

앞으로의 방향

킥오프 미팅에서 팀원들과 논의할 예정이지만,
개인적으로 관심 있는 방향은 다음과 같은 순서다.

  1. Tor 기반 크롤러 구축 : 다크웹 데이터 자동 수집 파이프라인
  2. AI 분석 엔진 : LLM 생성 가능성 및 OPSEC 리스크 점수화
  3. 클러스터링 : 유사 게시물 그룹화로 캠페인 식별
  4. OSINT 증거 체인 : 다크웹 데이터와 표면웹 증거 연결
  5. 운영 대시보드 : 분석가를 위한 단일 화면 인터페이스

물론 세미프로젝트 기간 내에 이 모든 걸 구현하기는 어렵겠지만,
핵심 콘셉트를 증명할 수 있는 MVP 정도는 만들 수 있지 않을까?